你好,砀山梨基因组了解一下
第三章 蔷薇科
地表最强植物基因组文献解读,正在继续。科技君和小伙伴们特地对植物基因组领域已发的180多篇高质量文章进行收集、解读和归类,经归纳整理后共分十章,前九章为相关领域已发表物种文献解读,最后一章为植物基因组未来发展趋势及预测。
第三章往期回顾
砀山梨(Pyrus bretschneideri Rehd),蔷薇科,苹果族。梨谐音“离”,所以在古代,人们从来不将梨切片食用,也不赠送梨。但有些地方,宴席的最后一道菜会是糖水梨, 寓意“吉利”。
本文中,高质量的梨基因组图谱的完成为梨的研究开启了新的篇章。该图谱将促进梨自交不亲和性机理科学问题的研究和抗病性、品质等重要农艺性状基因的定位研究,为通过分子育种进行梨品种改良奠定基础,同时还将促进蔷薇科植物的进化研究,以及果实发育机理等基础生物学研究。
文献题目:The genome of the pear (Pyrus bretschneideri Rehd.)
发表期刊:Genome Research
发表时间:2012年12月13日
影响因子:11.922
摘要介绍:该文章主要合作单位是南京农业大学园艺学院梨工程中心和华大基因科技服务有限公司。本文章使用BAC-by-BAC策略与二代测序方法结合对白梨进行了基因组测序和组装。梨是高杂合物种,本文通过高深度测序获得了194x的数据,并通过该数据组装出了512M的基因组序列,占估计基因组大小的97%。通过2,005个SNP构成的高密度遗传图谱,我们定位了17条染色体,占基因组大小的75.5%。
通过注释梨的基因组,识别得到了42,812个编码蛋白的gene,其中28.5%的基因集存在不同转录本iosform(异构体)。另外通过注释,基因组中发现271.9M的重复序列,占基因组序列的53.1%。从真双子叶植物到蔷薇科祖先的模拟构建了9条祖先染色体。苹果和梨的分离大概发生在5.4~21.5MYA(百万年),并且在此之前随着与草莓的分离,大约30~45MYA的时候发生了一次全基因组复制事件。
当比较苹果和梨的基因组时,发现在基因间区非常相似,分析发现二者基因组大小的差异主要是重复序列的差异,尤其是以转座因子所占比例最为突出。在基因组中,识别非常重要的基因,诸如自交不亲和基因、石细胞基因、山梨醇代谢基因和水果挥发性物质基因等,识别的6个SFB基因在S-locus区域内成串联重复的形式存在。在梨基因组内,木质素合成的基因组呈现了家族扩张的趋势,另外,HCT、C39H和CCOMT基因的高表达直接影响S-木质素和G-木质素的积累;α-亚麻酸的代谢是是梨果实合成芳香类物质的一个关键的代谢通路。
内容简析
研究方向:基于梨基因组的比较基因组研究
研究难点:梨是高杂合高重复的物种,BAC-by-BAC的策略有效的提供解决了高杂合的问题,构建了一个512M的基因组图谱。
研究问题:
1. 使用BAC-by-BAC策略对梨这样高杂合高重复的物种进行组装;
2. 梨基因组高杂合的特征;
3. 苹果与梨的基因组大小差异;
4. 梨属从双子叶植物到梨属的染色体进化过程探索;
5. 梨自交不亲和属性的研究;
6. 梨重要农艺性状的相关基因的研究(农艺性状包括石细胞、糖和挥发性芳香类物质)。
研究方法
研究对象:不同文库大小的二代测序数据、BAC数据;
所用软件:
进行组装:SOAPdenovo;
连接组装scaffold:SSPACE;
比对软件:BLAT、BLAST、TBLASTN;
构建遗传图谱:JoinMap version 3.0;
寻找重复序列:RepeatMasker、RepeatProteinMask;
寻找LTRs和串联重复序列:LTR-FINDER、TRF;
识别LTR转座子:LTR_STRUC;
寻找MITEs:MITE_Hunter;
识别LINEs:MGEScan_nonLTR;
基因预测和功能注释:Augustus、GlimmerHMM、Genewise、Glean、InterProScan;
tRNA位置识别:tRNAscan-SE;
单拷贝基因识别、系统发育树构建、分化时间推算:OrthoMCL、MUSCLE、PhyML、MultiDivtime;
基因家族扩张分析:CAFÉ;
比对和识别SNP:bwa、SOAPsnp;
所用数据:
1. BAC文库:250Bp和500Bp文库各38,304个,共329.65G,86.06x;
2. WGS数据:180Bp、500Bp、800Bp、2Kb、5Kb、10Kb、20Kb、40Kb等大小的文库总共57Gb数据,107.6x
3. 开花后15d、80d、145d的RNAseq数据7.8G
所用数据库:苹果、草莓、葡萄、拟南芥、水稻、杨树、番木瓜基因组和基因组数据,Repbase16.02、Rfam database、PAIRCOIL2、TrEMBL databases、GO、KEGG、miRBase、the database NONCODE、inmiRBase等数据库;
实验过程:
Denovo BAC文库准备:
1. 使用HindIII和BamHI对DNA进行初步消化,并连接到载体pSMART,平均文库大小80-180Kb;
2. 转移到Escherichia coli EPI-300的宿主细胞;
3. 分离单克隆,在37度下培养16-20h;
4. 分离DNA,使用NotI酶进行消化;
5. 脉冲凝胶电泳分离DNA;
6. 光谱仪检验单个样品,每个文库0.75ug以上才收集。
Denovo普通文库准备:构建180Bp、500Bp、800Bp、2Kb、5Kb、10Kb、20Kb、40Kb等不同大小的文库;
转录组样品准备:分别取开花后15d、80d、145d的果实样品;
研究结果
研究成果:
1. 公布了一个商用白梨品种“砀山酥梨”的基因组序列;
2. 首次使用BAC-by-BAC对梨这样高杂合高重复的物种进行组装,证明这种策略的对高杂合高重复物种组装的可行性。通过基因注释和基因比对,校正了苹果中的16,041个错误注释的基因。
3. 通过梨与苹果的基因组不同区域大小的比较,发现苹果和梨的非重复区域大小分别为241.6M和240.2M,而重复区域相差90M,因此苹果和梨基因组大小差异的主要原因是重复区域的大小差别。
4. 通过4dTv分布图发现,梨在0.08处明显存在突峰,苹果在0.09处,显示着苹果和梨分化之前经历了共同的基因组复制的事件。通过梨和苹果的KS分布,发现二者在0.15~0.3处和1.5~1.8处有明显的高峰,显示基因组中存在着两次明显的基因组复制的事件。在苹果中是30~40MYA和140MYA的时间发生了两次基因组复制,而梨和苹果的分化发生在5.1-21MYA。
5. 通过共线性分析发现,苹果和梨之间存在比较一致的基因组结构,草莓中一个共线性块在梨中往往能找到两个。通过草莓和葡萄的共线性分析,构建经过六倍体化事件的双子叶植物的祖先染色体;通过草莓与蔷薇和双子叶植物的共线性关系,我们模拟了从双子叶植物到梨属的染色体进化过程,双子叶植物的7条祖先染色体经过了染色体的重排进化成了9条蔷薇科的祖先染色体。
6. 花粉的自交不亲和基因SFB基因在梨中有6个,分布在LG17的3.7~4.6M的区域内,该基因内含有高度的多态性。但是SRNase检测到位于一个单独的scaffold上,与SFB没有直接连接。通过梨、苹果、草莓、土豆的该同源区域的共线性比较分析,该区域内在其他物种中存在SRNase和SFB基因,很少存在其他基因。该区域是中等共线性区域,这一区域是染色体重排活跃区域,梨和苹果在这一区域结构有所不同,显示在蔷薇科分化以后该区域仍然发生了进化。在梨中该6个SFB基因以串联重复的形式,与其他的物种中存在形式不一样,揭示可能是不同的作用机制。
7. 农艺性状1:石细胞基因。石细胞内部存在很多木质素的积累,在梨中66个木质素合成的基因家族存在基因扩张的形式,显示出梨中存在着木质素合成高需求。通过RNA数据发现,木质素相关的基因的在初期和中期呈现出高表达,大概是近成熟期的10倍,其中HCT基因在果实发育的早期高表达,该基因伴随着C3’H和CCOMT基因的高表达,导致PCC转化为PFC和FC,这个发现显示我们木质素要是G-木质素和S-木质素,而非P-木质素。在梨的初期中期和成熟期三个过程中没有COMT的表达,显示木质素合成的限速步骤是CFC到FC的转化过程。
农艺性状2:糖。糖是影响梨口味和风味的重要因素,山梨醇糖是光合作用的产物,主要在韧皮部中运输。与山梨醇糖相关的基因家族SOT、SDH和S6PDH的基因数量,在梨中发现的基因拷贝数明显高于其他非蔷薇科物种,但是与蔷薇科的苹果和草莓类似,显示出山梨醇糖的代谢过程中基因重复可能发生并且改变果实的味道。S6PDH基因在梨中有4个,在染色体2和5上成簇存在,而苹果中是11个,在染色体10上有一个富集簇,其余的分散在其他染色体,显示出梨和苹果分化后,苹果中S6PDH基因发生了基因扩张或者梨中发生了基因收缩。转录组数据显示4个S6PDH基因在果实中表达,显示出山梨醇糖可能通过单糖合成,特别是在果实发育和成熟期。通过不同物种中SDH基因的发育树,SDH基因在梨中存在15个,同向排列于染色体1和7,显示可能随着基因组复制事件SDH基因也实现了扩张。而苹果中15个SDH基因则分散在不同染色体,且方向不同,显示出苹果中出现了SDH基因的转座事件。同SDH的发育树,说明苹果与梨自从共同祖先分化以后SDH基因也发生着持续的基因扩张。
图1 梨的Circos图
内圈A中不同颜色代表构建蔷薇科的祖先染色体,颜色不同代表染色体编号不同。内部线链接共线性block,线的两端是共线性block在不染色体的位置。B代表基因的密度,以100Kb为最小单位,使用红色表示,最小值0,最大值0.8。C代表DNA转录因子的密度,以100Kb为最小单位,使用蓝色表示,最小值0,最大值0.65。D 表示反转录转座子的密度,以100Kb为最小单位,用紫色表示,取值范围0~1.E表示SNP的密度,以100Kb为最小单位,使用绿色表示,取值范围0~0.03. F表示GC含量,以100Kb为最小单位,取值范0.25~0.45。
图2 通过4DTv分析揭示的两次梨与苹果一样中经过基因组复制事件
基因组复制的事件发生与梨和苹果分化之前
图3 显示蔷薇科的9条祖先染色体从双子叶植物开始到蔷薇科进化过程
首先,7条双子叶植物的祖先染色体通过重排进化成了蔷薇科的9条染色体,这9条染色体在梨和苹果中经过全基因组复制变为17条,苹果亚科的物种经历了这个基因组复制的过程而李亚科没有经过基因组复制的过程,但是经过了染色体重排的过程,将9条染色体重排为7条。
图4 该图A表示的苯基丙酸类合成路径(影响木质素)的合成途径,红色框表示可以检测到表达,亮红色的椭圆表示木质素合成中重要的中间物,绿色字体和箭头表示可以检测到少量的表达,蓝色表示梨果实中重要的末端产物,绿色框表示检测不到表达。B表示的不同的时期的基因相互之间表达的差异倍数的图。(S422, 果实发育早期;S627,果实发育中期,S830果实发育晚期)。X轴代表中期和早期的比较,Y轴代表不晚期和中期的比较。不同的颜色表示不同的酶,不同的性状表示不同的假发现率。
在果实发育早期,HCT和CCOMT同时高表达,也就意味着在石细胞中积累了大量的GL(G-木质素)和SL(L-木质素),而不是PL(P-木质素)。在果实的三个时期中,COMT整个过程中,没有检测到任何表达,也就是说从CFC到FC的过程是木质素合成的重要的限速步骤。
表1 梨基因组组装的效果与基因组结构统计表
组装效果来看,contig N50达到35.7kb,scaffold N50为540.8kb,显示出较好的BAC-by-BAC组装效果。另外通过遗传图谱,基因组定位到染色体的比例为75.5%。从基因层面来看基因有42,812个,远低于苹果的基因集,显示出BAC-by-BAC对杂合基因有着较好的去冗余特性。从重复序列来看,梨的重复序列比例为53.1%,属于高重复物种。
【参考文献】
Wu J, et al. (2013) The genome of the pear (Pyrus bretschneideri Rehd.). Genome Research 23(2):396-408.
撰稿:大项目部-徐加豹
编辑:市场部
猜你喜欢
IBC意犹未尽?彩蛋来袭!|180+篇植物基因组文章解读大全
近期热文
华大基因全球发布2项重大计划,引爆J.P.Morgan健康大会
国际顶级生物信息专家李恒博士出任BGI Online资深顾问
请继续关注“华大科技BGITech”公众号,
科技君将一如既往地为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!